pdfminer.six snippet
pdfminer.six
でPDFを操作
テキストを抽出
code:shell
$ python pdf2txt.py sample.pdf -A -o sample.txt
-A
図表内のテキストも全て
-o
出力先ファイル指定(リダイレクトで保存したら文字化けしたが、-oなら大丈夫だった)
-O
画像出力先ディレクトリ
-t
出力タイプ: text, html, xml, tag